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Abstract 


Considering the harms of air pollution on human health and the environment, it seems necessary to 
reduce and solve this problem based on accurate knowledge of pollutants and criteria affecting it and 
identifying polluted areas. Therefore, using mathematical models in the form of machine learning is 
an optimal and cost-efficient approach to air pollution modeling. This research is applied in terms of 
purpose and its method is descriptive-analytical. The novelty of this research is presenting a new 
combination approach to determine the effective criteria for predicting the amount of air pollution. 
Therefore, the purpose of this study was to evaluate and compare the capabilities of two machine 
learning models, namely Support Vector Machine (SVM) and Random Forest (RF) in combination 
with Genetic Algorithm (GA) to predict air pollution in Tehran. The data used in this research 
include particulate matter and gaseous pollutants in Tehran in 2020, which was obtained from 
Tehran Traffic Control Company. MATLAB and ArcMap software were used to analyze the data. 
The value of coefficient of determination (R?) obtained from the combined RF-GA method was 
0.997, which indicates the high compatibility of this model with the data of this study. Moreover, the 
Root Mean Square Error (RMSE) value from the combined RF-GA method was 0.153, which 
indicates high accuracy of this model. Based on the data obtained from Tehran Traffic Control 
Company, the results of the RF method indicate the appropriateness of selecting the model to 
estimate the amount of air pollution in Tehran. 


Keywords: Air Pollution, Machine Learning, Random Forest, Support Vector Machine, Genetic 
Algorithm 


* Corresponding author: Mohammad Akbari E-mail: Moakbari @ birjand.ac.ir Tel: + 98 9153616696 
How to cite this Article: Karami, P., Eslaminezhad, S. A., Eftekhari, M., Boroumand, F., & Akbari, M. 
(2023). Development of machine learning algorithms to predict urban air quality index (Study area: 
Tehran city). Journal of Geography and Environmental Hazards, 12(2), 165-186. 
DOI:10.22067/geoeh.2022.76121.1212 


With open access mandates, by publishing its articles under Creative 


9 0 Journal of Geography and Environmental Hazards are fully compliant 
3 Commons Attribution 4.0 International License (CC BY 4.0). 


pry? ن ابرانی‎ 
ó 


Creative Commons Attribution 4.0 International License (CC BY 4.0) 
Geography and Environmental Hazards 
Volume 12, Issue 2 - Number 46, Summer 2023 
https://geoeh.um.ac.ir 

5 https://doi.org/10.22067/geoeh.2022.76121.1212 


K 
ty awe 
5 a 

SOCIATION of GEON® 


Bp مت‎ dee 
KL mAh 


جغرافیا و مخاطرات محیطی. سال دوازدهم. شمارة چهل و ششم تابستان ۶۰۲ صص ۱۹۵-۱۸ 


مقاله پژوهشی 
توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی شاخص کیفیت هوای شهری (منطقه مطالعاتی: شهر تهران) 
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حکیده 


با توجه به مضرات آلودگی هوا بر سلامت انسان‌ها و محیط. کاهش و حل این معضل براساس شناخت 
دقیق آلاینده‌ها و عوامل تأثیر گذار بر آن و مشخص نمودن پهنه‌های آلوده ضروری به نظر می‌رسد؛ بنابراین 
استفاده از مدل‌های ریاضی در قالب یادگیری ماشینی رویکردی بهینه و مقرون به صرفه برای مدل‌سازی 
آلودگی هواست. این تحقیق به لحاظ هدف کاربردی بوده و روش بررس ی Ol‏ توص یفی -تحلیلی است. 
نوآوری تحقیق le‏ ارائهیک رویکرد ترکیبی جدید جهت تعبین معیارهای موثر در پیش‌بینی میزان 
آلودگی هوا می‌باشد. لذا هدف از تحقیق حاضر ارزیابی و مقایسه قابلیت دو مدل یادگیری ماشین, یعنی 
ماشین بردار پشتیبان (SVM)‏ و جنگل تصادفی (RF)‏ در ترکیب با الگوریتم ژنتیک (GA)‏ جهت 
پیش‌بینی میزان آلودگی هوا در شهرستان تهران است. داده‌های مورداستفاده در این تحقیق شامل ذرات 
معلق و آلاینده‌های گازی شهر تهران مرتبط با سال ۱۳۹۹ می‌باشد که از شرکت کنترل ترافیک شهر تهران 
اخذ گردیده است. به منظور تجزیه‌وتحلیل داده‌ها از نرم‌افزارهای ArcMap Matlab‏ استفاده شد. مقدار 
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۱۹1 جغرافیا و مخاطرات محیطی شمارة دوم 


ضریب تشخیص R?)‏ حاصل از روش ترکیبی RE-GA‏ برابر ۰/۹۹۷ به دست آمد که نشان‌دهنده 
سازگاری بالای این مدل با داده‌های این تحقیق است. همچنین مقدار ریشه میانگین خحطای مربعات 
(RMSE)‏ برابر ۰/۱۵۲ به دست آمد که نشان‌دهنده دقت بالای این مدل می‌باشد. بر اساس اطلاعات 
ee eS‏ ی laala sesali RE ca ee el ok‏ 
مدل مذکور جهت برآورد میزان آلودگی هوای شهر تهران بوده است. 

کلیدواژه‌ها: آلودگی هواء یاد گیری ماشین» جنگل تصادفی, ماشین بردار پشتیبان الگوریتم ژنتیک. 


۱- مقدمه 


آلودگی هوا زمانی اتفاق می‌افتد که حجم زیادی از ذرات_یا مواد مضر از قبیل گازها؛ ذرات و مولکول‌های 
بیولوژیکی وارد اتمسفر کره زمین شود. آلودگی هوا مخلوطی از ذرات معلق و گازهایی است که غلظت آن‌به 
محدوده مضر برای اسان رسیده است که می‌تواند هم در داخل ساختمان و هم در خارج ساختمان باشد (اکبری و 
همکاران؛ ۲۰۲۱). شاحص کیفیت هوا (۸0۵) یا شاخص آلودگی dye‏ شاحصی عددی است که توسط سازمان‌های 
دولتی برای سنجش آلودگی هوای یک منطقه و پیش‌بینی آینده آن به کار می‌رود )95 ق هم‌کاران ؛ ۹ با افزایش 
درصد بیشتری از مردم احتمالاً دچار پیامدهای بهداشتی نابجای شدید ناش ی از آلودگی هوا می‌شوند (اکبری و 
خاص خودشان را دارند. مقادیر شاخحص کیفیت هوا معمولاً به صورت طیف‌هایی گروه‌بندی می‌شوند. هر طیف با 
یک نام توصیف‌کننده» یک کدرنگی و توصیه‌های استانداردشده بهداشت عمومی مشخص می‌شود. محاسبه AQT‏ نیاز 
به اندازه‌گیری غلظت یک ماده آلاینده در طول یک دوره میانگین مشخص دارد که به وسیله ایستگاه‌های پایش هوا یا 
مدل‌ها به دست می‌آید (کومار“ ۲۰۱۸). غلظت یک ماده آلاینده و مدت زمان حضور آن بیانگر دوز یک آلاینده هوا 
pease‏ شاخحص کیفیت هوا بر اساس ذرات «(PM10 PM2.5) Glee‏ اوزون )03( دی اکس ید نیتروژن «(NO2)‏ دی 
از مشکلات عظیم کلان‌شسهرهایی مثل تهران» وجود حجم زیادی از آلاینده‌های مختلف می‌باشد که مهمترین این 
آلاینده‌ها؛ ذرات ¢PM2.5) glee‏ 0 و آلاینده‌های گازی اوزون )03< دی اکس Ay‏ نیتروژن «(NO2)‏ دی اکس یبد 
گو گرد )602( و انتشار کربن مون و کسید (CO)‏ انیت تا عدم استفاده از سیستم‌های تحلیل مکانی و توصیفی آلاینده‌های 
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سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... vay‏ 


فوق بصورت توأم و همچنین عدم وجود یک سیستم منسجم در ذخیره سازی» بازیابی» به‌هنگام‌سازی» مدیریت؛ 
پردازش» نمایش» کاربرد و تبادل داده‌های زیست‌محیطی» لزوم استفاده از آخرین علوم و فناوری‌ها را در این زمینه 
مشخص می‌سازد. لذا هدف این تحقیق برآورد مکانی میزان آلودگی هوا شهر تهران بر پليه ترکیب الگوریتم‌های 
یادگیری ماشین و الگوریتم ژنتیک جهت شناسایی آلاینده‌های گازی موثر می‌باشد. با توجه به تحقیقات پیش ین 
برآورد میزان تراکم آلودگی هوا (پهنه‌بندی آلودگی هوا) توسط روش‌های ادغام در دو دسته کلی رویکرد دانش‌محور 
و رویکرد داده‌محور قابل دسته‌بندی می‌باشند (وانگ و لیو ۲۰۱۹؛ گواوارا و همکاران ۲۰۱۹). رویکرد داده‌محور 
در مناطق شناخته شده یا مناطقی که از لحاظ آماری تعداد شواهد شناخته شده کافی می‌باشند. کارآیی بالایی دارد. در 
این روش‌ها هدف مشخص کردن مکان‌های جدید برای کارهای تفصیلی‌تر است. از جمله این روش‌ها می‌توان به 
روش‌های یادگیری ماشین شامل جنگل تصادفی (REY‏ ماشین بردار پشتیبان (SVM)‏ و ... اشاره کرد. در حالی که 
رویکرد دانش‌محور در محیط‌های که کمتر شناخته شده‌اند و یا تعداد کمی از اهداف موردنظر در محدوده وجود دارند 
کارآمد هستند. تخمین وزن‌ها برای نقشه‌های شاهد و تخمین کلاس‌ها در هر نقشه شاهد بر اساس قضاوت کارشناس 
و با توجه به ویژگی‌های نشانه‌ها است؛ بنابراین در روش‌های دانش‌محور پارامترهای تابع برای ترکیب داده‌ها پر اساس 
دانش تجربی تخمین زده می‌شسود (گواوارا و همکاران» ۲۰۱۹). مطالعات متعددی در حصوص برآورد میزان تراکم 
آلودگی هوا (پهنه‌بندی آلودگی هوا) توسط دو رویکرد دانش‌محور و داده‌محور انجام شده است که می‌توان به موارد 
زیر اشاره نمود: 

خزایی و همکاران (۱۳۹۱) غلظت آلاینده مونواکسیدکرین را با GA‏ روش شبکه عصبی- فازی با GIS‏ مدلسازی 
کردند؛ به عبارت دیگر در این مقاله با به‌کارگیری شبکه عصبی- فازی و GIS‏ دانش حاکم بر محیط در قالب قوانین 
فازی» از داده‌ها استخراج شده و با استفاده از این قوانین غلظت آلاینده مونواکسیدکربن مدلسازی شده است. منطقه 
مورد مطالعه در این کار تحقیقی شهر تهران در نظر گرفته شد. جهت پیاده‌سازی, داده‌های هواشناسی شش ایستگاه 
موجود در سطح شهر تهران در فصل تابستان برای چهار سال متوالی به طور جداگانه بررسی شده و به منظور ورود 
به فرآیند آموزش شبکه عصبی مورد استفاده قرار گرفت. برای هر ایستگاه قوانین فازی OF‏ استخراج شده و غلظت 
آلاینده تخمین زده شد. به علت اينکه در این پژوهش پیش‌بینی در ایستگاه‌ها انجام می‌گیرد» برای مدلسازی مکانی 
غلظت در محدوده مورد مطالعه از روش کریجینگ استفاده شده و میزان خحطای مربوطه نیز محاسبه شد. رحیمی و 
همکاران (۱۳۹۲) در مقاله خود تداوم روزهای همراه با آلاینده مونواکسیدکربن را در هوای شهر تهران ارزیابی نمودند 
که این کار با استفاده از مدل ریاض ی زنجیره مارکف انجام شده است. برای این کار اطلاعات ۵ ساله پنج ایستگاه 
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سنجش آلودگی شرکت کنترل کیفیت هوای تهران گردآوری و با استفاده از زنجیره مارکف مدلسازی گردید. نتایج 
این پژوهش OLE‏ داد که بیشترین احتمال وقوع تداوم آلاینده CO‏ به ترتیب در ایستگاه‌های فاطمی بازار و اقدس یه 
وجود دارد و در اکثر ماه‌های سال ایستگاه فاطمی بالاترین احتمال وقوع تداوم دو روزه CO‏ را دارد. میری و همکاران 
(۱۳۹۶) جهت بررس ی مکانی آلودگی هوای کلان شهر مشهد از سه مدل درونیابی کریجینگ معمولی. کریجینگ 
عمومی و معکوس فاصله وزنی (DW)!‏ استفاده کردند. آن‌ها جهت مقایسه مدل‌ها و انتخاب بهترین مدل از ريشه 
میانگین خطای مربعات (RMSE)‏ و ضریب تعیین (RË)‏ استفاده کردند. نتایج نشان داد که مدل کریجینگ معمولی 
داری کمترین مقدار RMSE‏ و بیشترین مقدار R?‏ نسبت به سایر مدل‌های استفاده شده می‌باشد. حق بیان و تشیع 
(۱۳۹۹) از مدل رگرسیون کاربری اراضی بهبودیافته جهت مدل‌سازی آلاینده‌های هوا به منظور مدیریت مواجهه با 
استفاده از داده‌های حاصل از حسگرهای همراه استفاده کردند. به منظور بهبود دقت مدل‌سازی روش موردنظر برای 
تخمین غلظت ۳12.5 از هفت ایستگاه ثابت شهر اصفهان و چهارده حسگر همراه استفاده گردید. نتایج نشان داد که 
حتی با افزودن یک حسگر همراه به ایستگاه‌های ثابت میزان RMSE‏ به مقدار ۰/۱۱۳ میکروگرم بر متر مکعب کاهش 
می‌پلبد وبا افزودن چهارده حسگر همراه به هفت ایستگاه ثلبت RMSE Ol joe‏ حدود سه برابر کاهش می‌یلبد. 
نجات کورکی و باروتیان ۲ (۲۰۱۲) در تحقیقی بر روی پیش‌بینی حداکثر غلظت ۳۱۷۲10 در طی ۲۶ ساعت آتی در شهر 
تهران پرداعتند. از این رو از داده‌های هواشناسی و غلظت آلاینده‌ها به عنوان پارامترهای ورودی شبکه پس‌انتشار حطا 
استفاده شد. نتایج پیش‌بینی شده با شاخص دقت بالای ۰/۸۳ مطلوب نشان داده شد. از طرف دیگر شبکه با عملکرد 
مطلوب به خوبی می‌تواند نسبت به سایت‌های سنجش انسانی در شبکه پایش کیفیت هوا برتری داشته باشد. ویمن و 
همکاران* (۲۰۱۲) در تحقیقی به مدلسازی آلودگی هوا در لیللت Saxony‏ آلمان پرداختند. لذا از مدل IDW‏ برای 
تخمین غلظت آلاینده‌های ۳۷/10 و 03 در منطقه موردمطالعه استفاده می‌کنند. مک‌کندی* (۲۰۱۵) از مدل‌های 
شبکه عصبی مصنوعی (ANNY?‏ و رگرسیون خطی ساده (MLR)‏ جهت پیش‌بینی حداکثر و متوسط روزانه مقدار 
3 و ذرات معلق PM10)‏ و (PM2.5‏ استفاده کرد. در واقع یکی از محدودیت‌های رگرس یون خطی ساده خطی 
بودن این مدل می‌باشد؛ اما ممکن است بین خروجی‌ها و ورودی‌ها رابطه غیرحطی برقرار باشد که می‌توان از شبکه 
عصبی مصنوعی (ANN)‏ به این منظور استفاده کرد. نتایج نشان داد که مدل ANN‏ توانایی بالاتری در پیش‌بینی 
حداکثر و متوسط روزلنه 03 و ذرات معلق PM10)‏ و (PM2.5‏ دارد. آدامز و (lS y LIS‏ 4 (۲۰۱۳) در مطالعه‌ای از 


1 Inverse Distance Weighted 
2 Root Mean Square Error 

3 Nejadkoorki and Baroutian 
4 Wiemann et al. 

5 McKendry 

6 Artificial neural network 

7 Multiple linear regression 
8 Adams and Kanaroglou 


سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... VAS‏ 


مدل شبکه عصبی برای پایش آلودگی هوای ایستگاه‌ها و برآورد مقدار AQI‏ حاصل از دو آلاینده PM2.5‏ و NO2‏ در 
شهر همیلتون کانادا استفاده کردند. نتایج نشان داد که ضریب همبستگی برای آلاینده ۳12.5 و NO2‏ به ترتیب ۰/۷۸ 
و ۰/۳۶ محاسبه گردید. مسعودی و گرامی" (۲۰۱۷) کیفیت هوای شهر اصفهان را بر اساس میزان مونوکسید کرین 
(CO)‏ مورد تجزیه‌وتحلیل قرار دادند. نتایج نشان داد که بیشترین میزان غلظت CO‏ در صبح و ابتدای شب اتفاق 
می‌افتد. در واقع هدف اصلی تحقیقشان استفاده از مدلی بود که بتوانند ارتباط بین غلظت آلاینده‌ها و پارامترهای 
هواشنلسی را بررسی نمایند. از این رو از شبکه عصبی مصنوعی پرسپترون سه لایه و رگرسیون خطی برای پیش‌بینی 
غلظت آلاینده‌های CO‏ و PM10‏ استفاده کردند و مشخص گردید که شبکه عصبی مصنوعی پرسپترون سه لایه با 
توجه به در نظر گرفتن روابط غیرخطی بین آلاینده‌هاه دقت بالاتری در پیش‌بینی غلظت آلاینده‌های CO‏ و PM10‏ 
دارد. پارک و همکاران" (۲۰۱۸) جهت پیش‌بینی غلظت ۳۷10 شهر سئول کشور کره جنوبی از شسبکه عصبی 
مصنوعی (ANN)‏ استفاده کردند. نتیجه نشان داد مدل ANN‏ ضریب همبستگی بالایی را بین polio‏ اندازه‌گیری شده 
و مقادیر واقعی غلظت ۳۷10 نشان می‌دهد. فرهادی و همکاران" (۲۰۲۰) از شبکه عصبی مصنوعی پرسپترون سه 
لایه جهت پش‌بینی غلظت آلاینده‌های ۳۲10و CO‏ هوای شهر تهران استفاده کردند. نتایج نشان داد که بیشترین 
مقدار R?‏ برای آلاینده ۲110 با مقدار ۰/۸۳ برای فصول گرم بود و هم‌چنین بیشترین مقدار R?‏ برای آلاینده 00 با 
مقدار ۰/۷۲ برای فصول سرد است. سونگ و همکاران* (۲۰۲۱) از مدل‌های RF‏ و رگرسیون کاربری اراضی برای 
برآورد تغییرات مکانی-زمانی آلاینده‌های ۳۷۲2.5 و 02 در شهر شانگهای چین استفاده کردند. جهت پیاده‌سازی 
مدل‌های موردنظر از ۸۰ متغیر پیش‌بینی‌کننده مختلف مرتبط با شرایط جوی و جغرافیایی. حمل‌ونقل تراکم جمعیت؛ 
کاربری زمین و نقاط مورد علاقه استفاده شد. نتایج نشان داد که مدل RF‏ دقت بالاتری در برآورد تغییرات مکانی- 
زمانی آلاینده‌های PM2.5‏ و NO2‏ نسبت به مدل رگرسیون کاربری اراضی دارد. 

بررسی پیشینه تحقیقات نشان داد که با توجه به اهمیت موضوع آلودگی هواء مطالعات زیادی در این زمینه انجام 
گرفته است که هریک تلاش نموده راه‌حل‌ها و راهکارهای پیشنهادی را ارائه نمایند. از آن‌جایی که آلودگی هوا یک 
مساله پیچیده و چندوجهی می‌باشد و سازوکار مدلسازی OF‏ خود به تنهایی مس أله بس یار پیچیده‌ای می‌باشد این 
تحقیق درنظر دارد بدون درگیر شدن با مفاهیم پیچیده آلودگی هوا و معادلات ش یمیایی شکل‌دهنده, به پیش‌بینی 
آلودگی هوا از نقطه نظر مکانی به مسأله پرداعته و روابط آلودگی هوا را تنها با تکیه بر معادلات مکانی مدلس ازی 
نماید. برآورد میزان تراکم آلودگی هوا (پهنه‌بندی آلودگی هوا) موضوعی است که تاکنون زياد بدان پرداخته شده 


است؛ اما در میان مطالعات صورت پذیرفته» IS‏ وجود دارد که کمتر بدان توجه شده است؛ اول این که در هیچ یک 


1 Masoudi and Gerami 
2 Park et al. 

3 Farhadi et al. 

4 Song et al. 


۱۷۰ جغرافیا و مخاطرات محیطی شمارة دوم 


از مطالعات صورت گرفته. ترکیب مناسب و کافی از آلاینده‌های GIF‏ برای برآورد میزان تراکم آلودگی هوا در نظر 
گرفته نشده است. دوم این که تحلیل مناسبی برای تعیین ترکیب بهینه معیارهای مؤثر و تهیه نقشه برآورد ميزان تراکم 
آلودگی هوا بر اساس تأثیرات معیارهای مؤثر به کار برده نشده است. هدف از این پژوهش تهیه نقشه پهنه‌بندی 
آلودگی هوا با استفاده از روش‌های نوین یادگیری ماشین مبتنی بر الگوریتم فرابتکاری ژنتیک (GA)‏ است. بنابراین؛ 
این مطالعه از مطالعات قبلی متمایز است» زیرا در این مطالعه از مدل‌های ترکیبی یادگیری ماشسین توسعه‌یافته یعنی 
RF-GA‏ و SVM-GA‏ جهت برآورد میزان تراکم آلودگی هوای شهر تهران بر مبنای تعیین ترکیب بهینه آلاینده‌های 
گازی استفاده شده است که نوآوری تحقیق حاضر نیز می‌باشد. در نهایت» معیار مسطح زیر منحنی (AUC)‏ و 
معیارهای آماری شامل ضریب تشخیص (RY)‏ و ريشه میانگین خحطای مربعات (RMSE)‏ برای اعتبارسنجی مدل‌های 
پیش‌بینی آلودگی هوا در منطقه موردمطالعه مورد استفاده قرار گرفتند. 


۲- مواد و روش‌ها 

۱-۲- معرفی منطقه موردمطالعه 

شهر تهران به عنوان پایتخت کشور مهم‌ترین کلان‌شهر و مرکز سیلسی و تجاری کشور ایران محسوب می‌شود 
که بالغ بر ۰ درصد جمعیت کشور در آن ساکن هستند. تهران توسط رشته‌کوه‌های البرز از سمت شمال و دشت 
کویر از سمت جنوب احاطه شده است. آب‌وهوای شهر تهران تأثیر گرفته از موقعیت جغرافیایی آن است. جز مناطق 
شمالی تهران که تحت تأثیر کوهستان تا اندازه‌ای معتدل و مرطوب هستند. آب‌وهوای Ko‏ مناطق شهر تقریباً گرم و 
خشک و در زمستان اندکی سرد است. رشته‌کوه البرز همچون سدی از نفوذ بسیاری از توده‌های هوا SS gle‏ 
می‌کند. از همین روی سبب گردیده که تهران از آب‌وهوایی نسبتاً خشک برخوردار باشد. محصور بودن در بین کوه‌ها 
از سه طرف که مانع خروج آلودگی‌ها از شهر می‌شود. از یک سو و افزایش بی‌رویه استفاده از وسایل نقلیه و 
گسترش صنایع از عوامل اصلی آلودگی هوا در شهر تهران می‌باشند. آلودگی هوا در شهر تهران عمدتاً مصنوعی و 
ناشی از فعالیت وسایل نقلیه است که سهم بالایی در آلودگی هوای شهر دارند؛ بنابراین پیش‌بینی و مدل‌سازی آلودگی 
هوا برای شهر تهران امری ضروری بوده تا اقدامات لازم جهت کنترل آلودگی انجام شده و مکان‌هایی که از نظر 
آلودگی در وضعیت خطرناکی قرار دارند. شناسابی گردند. برای این منظور جهت پیش بینی آلودگی dye‏ کل شهر 
تهران به عنوان منطقه مطالعاتی انتخاب شده است. در شکل ۱ نقشه مناطق شهر تهران به همراه ایستگاه‌های سنجش 
آلودگی هوا اخذ شده از شرکت کنترل کیفیت شهرداری تهران OLS‏ داده شده است. 


1 Genetic algorithm 
2 Area under the curve 
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شکل ۱- محدوده منطقه مطالعاتی و ایستگاه‌های سنجش آلودگی هوای شهر تهران (مأخذ: نویسندگان) 


داده‌های مورداستفاده در این تحقیق شامل ذرات معلق (PM10 PM2.5)‏ آلاینده‌های گازی اوزون (O3)‏ دی 
اکسید نیتروژن (NO2)‏ دی اکسید گوگرد (SO2)‏ و کربن gi ge‏ کسید (CO)‏ است. این داده‌ها مربوط به سال ۱۳۹۹ 
شهر تهران می‌باشد که از شرکت کنترل ترافیک شهر تهران اخذ شده است. 

۲-۲- روش انجام پژوهش 

روش انجام پژوهش توصیفی-تحلیلی بوده و نوع آن بر اساس هدف کاربردی است. مبانی تلوریک تحقیق بر 
اساس مطالعات اسنادی و کتابخانه‌ای انجام گرفته است. در راستای رسیدن به هدف این تحقیق که تعیین آلاینده‌های 
گازی مؤثر در برآورد میزان آلودگی هوای شهر تهران می‌باشد. از داده‌های شرکت کنترل ترافیک شهر تهران در سال 
۹ استفاده شده است. تمامی پردازش‌های مربوط به داده‌ها در محیط نرم‌افزاری ArcMap‏ و محاسبات کمی آن در 
محیط نرم‌افزاری Matlab‏ انجام گرفته است. در این تحقیق از الگوریتم‌های یادگیری ماشین ترکیبی شامل ۸۴-6۸ و 
SVM-GA‏ جهت برآورد میزان آلودگی هوا استفاده شده است. نهایتاً پس از تعیین معیارهای موثر در برآورد میزان 
آلودگی هوا و تهیه نقشه معیارهای مختلف. میزان آلودگی هوای شهر تهران پیش‌بینی شده است. در شکل ۲ روند 


اجرایی تحقیق نشان داده شده انیت 


نف جغرافیا و مخاطرات محیطی شمارة دوم 


برآورد میزان آلودی هوا چ تعریف هدف 


آلایده‌های گازی و شاخص 
RF-GA Matlab‏ کیفیت هوا 
۹ 
SVM-GA ArcMap‏ 
1 متغیرهای مستق 
گمیین اک کیب وة معرارهای ویو ا 
یواست یدای وتات وت شش آلاینده گازی موثر بر آلودی 
هوا 
i }‏ 


تهیه نقشه برآورد تراکم میزان آلودی هوا 


۱ 


yb!‏ نتایج 


بررسی همبستگ بین معیارها 


۱-۲-۲- الگوریتم جنگل تصادفی (RF)‏ 

الگوریتم جنگل تصادفی یکی از رایج‌ترین الگوریتم‌های به کار رفته برای بررسی مشکلات طبقه‌بندی و پیش‌بینی 
چندگانه است که حساسیت کمی به چندخطی بودن دارد و نتایج آن از نظر داده‌های از دست رفته و نامتعادل Cand‏ 
پایدار است (کویروز و همکاران؛ ۲۰۱۸؛ دی سانتانا و همکاران ؛ ۲۰۱۸ اسلامی‌نژاد و همکاران؛ ۱۶۰۰ب). مدل 
پیش‌بینی کننده RF‏ بر اساس میانگین گیری از نتایج حاصل از تمامی درخت‌های تصمیم مربوطه استوار است و برای 
بسیاری از مجموعه داده‌ها طبقه‌بندی را با صحت بالایی انجام می‌دهد (دی سانتانا و همکاران ۲۰۱۸). چهار مرحله 
زیر فرآیند الگوریتم 8۴ را بیان می‌کند: ۱) تعریف و بازنمونه‌گیری داده‌های آموزشی؛ (Y‏ انتخاب مجموعه ویژگی‌های 
تصادفی مربوط به هر نمونه مجدد؛ ۳) اختصاص یک درخت تصمیم برای هر کدام از آن‌ها به مجموعه ویژگی‌های 
تصادفی و گسترده؛ )٤‏ ایجاد یک درحت تصمیم واحد از طریق تجمیع درخت تصمیم احتصاص‌داده‌شده به هر مثال. 


1 Quiroz et al. 
2 De Santana et al. 


سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... Da‏ 


۲-۲-۲- الگوریتم ماشین بردار پشتیبان (SVM)‏ 

ماشین بردار پشتیبان (SVM)‏ یک روش یادگیری ماشین نسبتاً جدید و یک الگوریتم یادگیری ماشین نظارت 
شده است (عرب‌گل و همکاران ؛ ۲۰۱۹). الگوریتم SVM‏ یکی از متقاعدکننده‌ترین روش‌های پیش‌بینی است که 
براساس روش حداقل‌سازی ریسک ساختاری می‌باشد. در مقابل» بیشتر مدل‌های هوش مصنوعی مانند شبکه‌های 
عصبی مصنوعی, از تکنیک‌های به حداقل رساندن ریسک تجربی استفاده می‌کنند؛ بنابراین» روش SVM‏ می‌تواند 
خطای تجربی را کاهش دهد پیچیدگی را مدل کند و احتمال را بیش از حد تنظیم کند (قربان‌زاده و همکاران ۰ 
۵۹ هدف SVM‏ پیدا کردن ابر صفحه جداساز بهینه است که بتواند حاشیه را بین کلاس‌های مختلف مشخص 
کرده و فاصله یک کلاس را به حداقل برساند. در بیشتر شرایط ابر صفحه توسط یک سطح غیر خطی تعریف 
خواهد شد. در این مورد. عبارت ریاضیاتی زیر برای طبقه‌بندی مجموعه داده‌ها به کار گرفته خواهد شد (عرب‌گل و 
همکاران (TV‏ 


fœ) = 2 — a;*)K(x,x) +b (\) 


که در آن ٩‏ و ai‏ ضرایب لاگرانژ 16 تابع کرنل و انحراف ابرصفحه از مبداً است. 
۲-۲-۲- الگور یتم ژنتیک (GA)‏ 


الگوریتم ژنتیک را می‌توان یک روش جستجوی IS‏ نامید که از قوانین تکامل بیولوژیک طبیعی تقلید می‌کند 
(میرجلیلی T‏ ۲۰۱۹). به منظور حل هر مسئله با استفاده از الگوریتم‌های ژنتیکی؛ ابتدا باید یک تابع هدف برای Ol‏ 
مسئله ابداع ope‏ برای هر کروموزوم» این تابع عددی غیر منفی را برمی‌گرداند که نشان‌دهنده شایستگی یا توانایی 
فردی آن کروموزوم است. در الگوریتم‌های ژنتیکی» در طی مرحله تولیدمثل از عملگرهای SE‏ استفاده می‌شود. با 
-تأثیر این عملگرها بر روی یک جمعیت» نسل بعدی آن جمعیت تولید می‌شود. عملگرهای انتخاب“ تر کیب" و 
مدل بهینه‌سازی توسط الگوریتم ژنتیک به شکل زیر می‌باشد (سان و همکاران؛ ۲۰۲۰): 
۰ ایجاد جمعیت تصادفی و ارزیابی آن‌ها 
o‏ انتخاب والدین و ترکیب Bol‏ برای ایجاد جمعیت اولیه فرزندان 
o‏ انتخاب اعضای جمعیت برای اعمال جهش و ایجاد جمعیت جهش ORL‏ 
Arabgol et al.‏ 1 
Ghorbanzadeh et al.‏ 2 
Mirjalili‏ 3 
Selection‏ 4 
Crossover‏ 5 


6 Mutation 
7 Sunet al. 


۷٤‏ جغرافیا و مخاطرات محبطی شمارة دوم 


۰ ترکیب یا ادغام جمعیت اصلی» فرزندان و جهش‌یافتگان و ایجاد جمعیت اصلی جدید 


© اگر شرایط خاتمه محقق نشده باشند» از مرحله ۲ تکرار می‌شود 
o‏ پایان 


۳-۲- ارزیابی عملکرد و دقت مدل‌ها 

۱-۳-۲- شاخص‌های آماری 

خروجی الگوریتم‌های یادگیری ماشین شامل پارامترهای متعددی است که از آن dhe‏ معمولاً پارامتر 182برای 
سنجش مناسبت برازش مدل و پارامتر RMSE‏ جهت سنجش توزیع باقیمانده‌های مدل به کار می‌روند که به ترتیب» 
Gb‏ روابط (۲) و (۳) محاسبه می‌شوند (اوشان و همکاران؛ ۲۰۱۹؛ ویلر ۲۰۱۶): 


R? =1 ری‎ = 3) 6 


20) - 


(۳ 
RMSE = 


که n‏ تعداد مشاهدات» ,ر مشاهده i‏ ام» ,۶ مقدار پیش‌بینی مشاهده pli‏ و ( میانگین مشاهدات است. 
۲-۳-۲- منحنی مشخصه عملکرد سامانه (ROC)‏ 


در این مطالعه منحنی مشخصه عملکرد سامانه (ROC‏ برای ارزیابی عملکرد مدل‌ها به ترتیب با نرخ‌های مثبت 
واقعی و نرخ مثبت کاذب بر روی محور ۷ و محور × استفاده شده است (گورسوسکی و همکاران“ (Yee V‏ منطقه 
تحت منحنی ROC‏ یعنی (AUC)?‏ عملکرد مدل رابه صورت کمی تعیین می‌کند (تين بوی و همکاران» ۲۰۱۹). 
مقادیر بالاتر AUC‏ (نزدیک به ۱) نشان‌دهنده عملکرد بهتر مدل‌ها می‌باشد (تين بوی و همکاران. ۲۰۱۹). خوبی 
تناسب يا قابلیت یادگیری مدل با استفاده از منحنی ROC‏ توسط مجموعه داده‌های آموزشی مشخص می‌شود؛ در 


حالی که مجموعه داده‌های آزمایشی» مهارت پیش‌بینی مدل را نشان می‌دهند (فاوست" ۲۰۰۳). 


1 Oshan et al. 

2 Wheeler 

3 receiver operating characteristics curve 
4 Gorsevski et al. 

5 Area under the curve 

6 Tien Bui et al. 

7 Fawcett 


سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... 
¥- تجزیه و تحلیل داده‌ها 
۱-۳- آماده‌سازی داده‌ها 


در این تحقیق تأثیر شش معیار مثر بر میزان آلودگی هوا در محدوده مطالعاتی مورد بررسی قرار گرفته است که 
در جدول ۱ نشان osla‏ شده است. این معیارها با توجه به مطالعات گذشته و همچنین محدودیت‌های موجود در 


دسترسی به داده‌ها انتخاب شده است. 


حدول \— آلاینده‌های گازی pH‏ بر آلودگی هوا deb)‏ نویسندگان) 


شماره معیارها شماره معیارها 
NO2 t SO2 ۱‏ 
PM2.5 0 CO ۲‏ 
PM10 1 03 Y‏ 


در شکل ۳ نقشه رستری مربوط به میانگین مقادیر ذرات معلق و آلاینده‌های گازی در سال ۱۳۹۹ نشان داده شده 
است. برای ایجاد لایه مکانی هر کدام از ذرات Glee‏ و آلاینده‌های گازی میانگین سالیانه آن‌ها برای ۲۱ ایسستگاه 
محاسبه شده و سپس به کمک روش درونیابی کریجینگ. هر کدام از لایه‌ها در قالب نقشه رستری با اندازه پیکسل 
۰ متر تولید شد (اسلامی‌نژاد و همکاران. ۱۶۰۰ الف. AVA‏ افتخاری و همکاران ؛ ۲۰۲۱). 


51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 
1 


N 
۱ 


N 


| 


NO2 co F 
= High : 3 High : 5 3 
0 3.5 7 14 Kilometers Low : 6.01197 0 3.5 7 14 Kilometers Low : 15.0155 
51°10'0"E 51°20'0"E 51°30'0"E 51°400"E 51°100"E 51°200"E 51°300"E 51°40'0"E 
(الف) (ب)‎ 


1 Eftekhari et al. 


A‏ جغرافیا و مخاطرات محیطی 


51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 


N 


Pm2.5 


= High : 78.9876 


0 3.5 7 14 Kilometers 
Low : 32.0183 
51°100"E 51°200"E 51°300"E 51°400"E 
(ج)‎ 
51°10'0"E 51°20'0"E 51°30'0"E 51°40°0"E 


S02 
High : 10.9992 


0 3.5 7 14 Kilometers 


HR HH Low : 4.00835 


51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 
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شمارة دوم 


51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 


N 


03 


= High : 4 
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Low : 8.01325 
51°100"E 51°200"E 51°30'0"E 51°40'0"E 
(د)‎ 
51°10'0"E 51°20'0"E 51°30'0"E 51°40°0"E 


PM10 
= High : 69.9967 
03.5 7 14 Kilometers Low : 37.0318 
51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 


(و) 


شکل ۳- clea‏ به کار برده شده در منطقه موردمطالعه (الف) CO‏ (ب) NO2‏ (ج) ۳۲2.5 (د) 03 (e)‏ 
2 (و) ۳۷۲10 (مأخذ: نویسندگان) 


جهت تولید a‏ آلودگی شهر تهران در بازه زمانی مشخص. میانگین مقدار AQI‏ محاسبه شده برای ۲۱ ایستگاه 
در قالب نقشه رستری با اندازه پیکسل ۲۰ متر تولید شد (شکل ٤‏ (الف)). هم‌چنین جهت پیاده‌سازی روش‌های 
پیشنهادی ناز به تولید تقاط پراکنده در منطقه موردنظر است. از cyl‏ رو بر اساس تحلیل Random point‏ در نرم‌افزار 
Arc Map‏ ۲۰۰۰ نقطه 4 صورت تصادفی و یکنواخت تولید شد که این نقاط در شکل ۶ (ب) قابل مشاهده است. 
سپس مقادیر تمامی لایه‌های اطلاعاتی موجود (نرمال شده متغیرهای مستقل و وابسته) برای این نقاط محاسبه شد. از 
این تعداد نقاط 4۷۰ برای آموزش و 2۳۰ برای آزمایش به صورت تصادفی انتخاب و به صورت یکسان برای تمامی 


روش‌ها مورد استفاده قرار گرفت. 


سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... تشد 


51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 51°10'0"E 51°20'0"E 51°30'0"E 51°40'0"E 
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1 ون ی دم‎ 
] Sunt: 
AES ha 
E 
AQI F 
= High : 451.6 
il ۰ تقاط تصادفی‎ il 
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شهر تهران‎ 
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شکل -٤‏ (الف) نقشه میزان آلو د گی شهر تهران بر اساس میانگین شاخص AQT‏ (ب) نقاط تصادفی تولید 
شده در منطقه مورد مطالعه DEL)‏ نویسندگان) 


نکته مهمی که Lb‏ قبل از پیاده‌سازی الگوریتم‌های یادگیری ماشین انجام شود بررسی مستقل بودن معیارهای 
موردنظر می‌باشد. به منظور تشخیص هم‌خطی چندگانه در Ole‏ عوامل مختلف. آماره تحمل (TOL)'‏ و عامل تورم 
واریانس (VIP‏ دو پارامتر آماری رایج هستند. طبق جدول ۲ هنگامی‌که مقدار TOL‏ بزرگ‌تر از ۰/۱ و مقدار VIF‏ 
کوچک‌تر از ۵ باشد. هم‌خطی چندگنه بالایی در میان متغیرهای پیش‌بینی کننده وجودندارد (افتخاری و همکاران, 


۰ بنابراین از تمام معیارها در الگوریتم‌های پیشنهادی استفاده گردید. 


حدول -Y‏ آلاینده‌های گازی pH‏ بر آلود گی هوا (مأخذ: نویسندگان) 


TOL VIF شماره معیارها‎ 
۰/۱۱۸ 1۳۲ SO2 ۱ 
۰/1۹۹ 4۸ CO ۲ 
۳:۵ wy 03 ۳ 
1/۹۲ YVA NO2 3 
۰/۱۸ ۱/۹۹۵ PM2.5 ۵ 
LOA vét PM10 5 


۲-۳- پیش‌بینی آلودگی هوا توسط الگوریتم‌های یادگیری ماشین 
با توجه به این که یکی از مهم‌ترین پارامترهای ارزیابی روش‌های چندمعیاره پارامتر RMSE‏ اسست. از این‌رو تابع 


برازش الگوریتم ژنتیک» کمینه کردن مقدار RMSE‏ انتخاب شده است تا میزان سنجش توزیع باقیمانده‌های مدل و در 


1 Tolerance 
2 Variance Inflation Factor 


۱۷۸ جغرافیا و مخاطرات محبطی شمارة دوم 


واقع دقت مدل در برآورد میزان آلودگی هوا بررسی شود (اوشان و همکاران, ۵۹ وی ۲۰۱۶). طبق جدول ۳ 
مقادیر بهینه پارامترهای اولیه الگوریتم ژنتیک» بر اساس روش سعی‌وخطا انتخاب شد. شرط توقف جهت ساده‌سازی 


روند پیاده‌سازی» تعداد اجرای خاص در نظر گرفته شده Cal‏ 


جدول ۳- پارامترهای مورد استفاده در الگوریتم ژتیک (مأخذ: نویسندگان) 


پارامتر مقدار 

اندازه جمعیت vs‏ 

تعداد نسل‌ها (تکرار) Yes‏ 

نرخ ترکیب ۸ 
نوع ترکیب تک‌نقطه‌ای 


معیارها با همان ترتیبی که در جدول ۱ ارائه شده است. کروموزوم‌های الگوریتم ژنتیک را تشکیل داده‌اند. در این 
تحقیق هر کروموزوم دارای 7 ژن (معیار) است که به صورت باینری مقداردهی شده است. به گونه‌ای که هر بار 
تعدادی ژن. جهت ترکیب انتخاب می‌ش‌وند. در این حالت مقدار ابه ژن‌های انتخاب شده و مقدار «به ژن‌های 
انتخاب نشده اختصاص می‌یابد. شکل ۵. نتایج حاصل از ترکیب الگوریتم‌های یادگیری ماشین RF‏ و SVM‏ با 
الگوریتم GA‏ را نشان می‌دهد. پس از اجرای الگوریتم SVM-GA‏ بهترین مقدار تابع برازش برابر با ۰/۲۰۷ به دست 
آمد و بر این اساس» PM2.5 NO2 »03 ylas ٤‏ و 1۷۲10 به عنوان معیارهای Fhe‏ در برآورد میزان آلودگی هوای 
شهر تهران شناخته شدند. هم‌چنین برای الگوریتم ۳-0۸ بهترین مقدار تابع برازش برابر با ۰/۱۵۲ به دست آمد و بر 
این اساس ۵ معیار PM2.5 NO2 .03 SO2‏ و ۲110 به عنوان معیارهای مؤثر در برآورد میزان آلودگی هوای شهر 


تهران شناخته شدند. 


Fitness curve 


Best fitness 


10 20 30 40 50 60 70 80 90 100 


Iterations 


(الف) 


سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... wa‏ 


Fitness curve 


Best fitness 


1 1 1 1 1 1 1 J 
10 20 30 40 50 60 70 80 90 100 


Iterations 


(ب) 
شکل ۵- بهترین مقدار و میانگین QU polis‏ برازش برای الگوریتم‌های یاد گیری ماشین توسعه AL‏ (الف) 
SVM-GA‏ (ب) 13۳-6۸ (مأخذ: نویسندگان) 


جهت ایجاد نقشه‌های برآورد میزان آلودگی شهر تهران» پس از برآورد متغیر وابسته توسط روش‌های یادگیری 
ماشین توسعه adh‏ برای نقاط تصادفی تولید شده در محدوده مطالعاتی» سطحی به روش کربجینگ از این نقاط 
برازش داده می‌شود تا نقشه رستری میزان آلودگی ایجاد گردد. این نقشه‌ها در ۵ کلاس برابر بر اساس روش فاصله 
مساوی" در محدوده [eel]‏ ایجاد شد. شکل 1 نشان‌دهنده نقشه برآورد میزان آلودگی هرا (AQD‏ در منطقه مورد 
مطالعه با استفاده از الگوریتم‌های SVM-GA‏ و RF-GA‏ در ۵ کلاس برابر می‌باشد. 


51°30'0"E 51°40'0"E 
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= 

03.5 7 14 Kilometers 

HR = 
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VAs‏ جغرافیا و مخاطرات محیطی شمارة دوم 
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pl 


0 3.5 7 14 Kilometers = 
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(ب) 
شکل *- نقشه برآورد میزان آلودگی هوا (AQD‏ در منطقه مورد مطالعه با استفاده از الگوریتم‌های یادگیری 
ماشین توسعه يافته (الف) SVM-GA‏ (ب) RF-GA‏ (مأخذ: نویسندگان) 


۳-۳- ارزیابی الگوریتم‌های یادگیری ماشین در پیش‌بینی آلودگی هوا 

شکل ۷ درصد هر یک از کلاس‌های میزان آلودگی هوای پیش‌بینی شده را توسط مدل‌های RF-GA‏ و SVM-‏ 
ULE GA‏ می‌دهد. نتایج نشان داد که در مدل RE-GA‏ ۲ کلاس با آلودگی خیلی زیاد و زیاد درصد بیشتری را در 
منطقه موردمطالعه نسبت به کلاس‌های مشابه در مدل SVM-GA‏ تحت پوشش قرار می‌دهد. علاوه بر این در مدل 
SVM-GA‏ کلاس با آلودگی متوسط. کم و خیلی کم درصد بیشتری را در منطقه مورد مطالعه نسبت به کلاس‌های 
مشابه در مدل RF-GA‏ دربر گرفته است. 


S 
x 25 
w 
3 20 
4 
< s 
10 
5 
0 
Very Low À Moderate i Very High 
m 5۲ ۱۲6۸ 7.2 d 34.2 5 10.5 
۲ RF-GA 4.8 9.2 95 43 23.5 


=SVM-GA #RF-GA 
شکل ۷- نمودار میزان درصد کلاس‌های آلودگی هوای پیش‌بینی شده توسط الگوریتم‌های یاد گیری ماشین‎ 


توسعه adh‏ (مأخذ: نویسندگان) 


سال دوازدهم توسعه الگوریتم‌های یادگیری ماشین جهت پیش‌بینی .... 


جدول 6 polis‏ ۸۶ و RMSE‏ حاصل از الگوریتم‌های یادگیری ماشین SVM-GA‏ و RF-GA‏ را نشان می‌دهد. 


جدول ۶- ارزیابی الگوریتم‌های یاد گیری ماشین SVM-GA‏ و RF-GA‏ در برآورد میزان آلودگی هوا (مأخذ: 


نویسندگان) 
نوع روش RMSE R?‏ 
SVM-GA‏ ۰۵ ۱۳۷ 
RF-GA‏ ۰۹۹۷ ۱۵۳ 


داده‌های آموزش ی و داده‌های آزمایشی‌مدل‌ها نشان می‌دهد. شکل ۸ (الف) نشان می‌دهد که برای مجموعه داده 
آموزشی مدل ترکیبی RF-GA‏ دارای بالاترین مقدار AUC‏ )4£0/+( و پس از آن مدل (AUC= ۰/4۰0) SVM-GA‏ 
قرار دارند. به طور کلی. قابلیت مدل‌ها برای پیش‌بینی آلودگی هوا توسط مجموعه داده‌های آزمایشی ارزیایی می‌شود. 
بر این اساس شعل ۸ (ب) شان می‌دهد که مدل ترکیبی RF-GA‏ قوی‌تر بوده و دارای‌بالاترین مقت +/MY)‏ 


(AUC=‏ نسبت به مدل (AUCE ۰/۸٤۲( SVM-GA‏ می‌باشد. بنابراین می‌توان نتیجه گرفت که اگر چه تمام 


مدل‌های ترکیبی به کار ad‏ قدرت پیش‌بینی خوبی دارند. اما عملکرد مدل RF-GA‏ برای پیش‌بینی آلودگی هوا در 


مجموعه داده آموزشی 


Sensitivity 


0 20 40 60 80 100 
100-specificity 


—RF-GA , AUC= 0.945 —SVM-GA, AUC=0.905 


(الف) 


VAY‏ جغرافیا و مخاطرات محیطی شمارة دوم 


مجموعه داده آزمایشی 


Sensitivity 


0 20 40 60 80 100 
100-specificity 


—RF-GA , AUC= 0.887 —SVM-GA, AUC=0.842 
(ب)‎ 
برای روش‌های پیشنهادی تحقیق (الف) مجموعه داده‌های آموزشی (ب)‎ AUC و مقدار‎ ROC شکل ۸- منحنی‎ 


محموعه داده‌های آزمایشی (مأخذ: نویسندگان) 


6- بحث و نتیجه گیری 
با بررسی مطالعات صورت پذیرفته مشخص گردید در تحقیقات پیشین, تحلیل مکانی مناسبی برای تعیین ترکیب 
ang:‏ آلاینده‌های گازی موثر جهت برآورد میزان آلودگی هوا انجام نگرفته ات (ژو و همکاران ۲۰۱۹؛ لیو و 
همکاران, ۲۰۱۹). ازآنجایی که آلودگی هوا یک مساله پیچیده و چندوجهی می‌باشد و سازوکار مدلسازی آن خود به 
تنهایی مسأله بسیار پیچیده‌ای است. این تحقیق درنظر دارد بدون درگیر شدن با مفاهیم پیچیده آلودگی هوا و معادلات 
شیمیایی شکل‌دهنده. به پیش‌بینی آلودگی هوا از نقطه نظر مکانی به مسأله پرداخته و روابط آلودگی هوا را تنها با تکیه 
بر معادلات مکانی مدلسازی نماید. لذا هدف از این پژوهمش تهیه نقشه پهنه‌بندی آلودگی هوا با استفاده از روش‌های 
نوین یادگیری ماشین مبتنی بر الگوریتم فرابتکاری ژنتیک (GA)‏ است؛ بنابراین این مطالعه از مطالعات قبلی متمایز 
است؛ زیرا در این مطالعه از مدل‌های ترکیبی یادگیری ماشین یعنی REGA‏ و SVM-GA‏ جهت برآورد میزان تراکم 
آلودگی هوای شهر تهران بر مبنای تعیین ترکیب بهینه آلاینده‌های گازی استفاده شده است که نوآوری تحقیق حاضر 
نیز می‌باشد. مهم‌ترین نتایج این تحقیق به شرح ذیل است: 
۰ ترکیب الگوریتم یادگیری ماشین 18 با الگوریتم GA‏ نتایج بهتری را نسبت به ترکیب SVM-GA‏ در 
اختیار قرار داد. 
o‏ مقدار R?‏ حاصل از ترکیب الگوریتم‌های RF‏ و SVM‏ با الگوریتم GA‏ به ترتیب برابر ۰/۹۲۵ و ۰/۹۹۷ 


به دست آمد که نشان‌دهنده سازگاری بالای الگوریتم یادگیری ماشین RE‏ با داده‌های این تحقیق است. 
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o‏ مقدار RMSE‏ حاصل از ترکیب الگوریتم‌های RF‏ و ۹۷با الگوریتم 0۸ به ترتیب برابر ۰/۲۰۷ و 


۳ به دست آمد که نشان‌دهنده دقت بالای الگوریتم یادگیری ماشین RE‏ است. 


۰/۸:۲( SVM-GA نسبت به مدل‎ (AUC= ۰/۸۸۷( مدل ترکیبی ۸۴-6۸ دارای بالاترین دقت‎ e 
می‌باشد.‎ (AUC= 
بیانگر مناسب بودن‎ RF نتایج حاصل از روش‎ Le بر اساس اطلاعات گرفته شده از شرکت کنترل ترافیک شهر‎ 
انتخاب مدل مذکور جهت برآورد میزان آلودگی هوای شهر تهران بوده است که مطابق با نتایج تحقیق سونگ و‎ 
همکاران" (۲۰۲۱) است. با برآورد مکانی میزان آلودگی هوا پیشنهادهای زیر مطرح می‌گردد:‎ 

۰ نتایج پژوهش حاضر قابلیت روش‌های ادغام داده‌محور و GIS‏ را در برآورد میزان آلودگی هوای شهر 
تهران به حوبی نمایان می‌کند. بدین جهت» پيشنهاد می‌گردد که ارگان‌هاء ادارات و سازمان‌های, مربوطه 
با ایجاد بانک‌های اطلاعاتی جامع و به روز از تمام جزئیات و عناصر شهری مبتنی بر GIS‏ همواره 
آمادگی لازم برای برای مقابله با پدیده آلودگی هوا را داشته باشند. 

۰ آموزش عمومی. آگاهی و اطلاع‌رس‌انی دقیق به عموم در خصوص وجود خطر آلودگی dye‏ ابعاد 
گوناگون ol‏ و هم‌چنین مناطق پرخطر آلودگی هوا. 

در این تحقیق از ترکیب الگوریتم ژنتیک با الگوریتم‌های یادگیری ماشین RF‏ و SVM‏ برای شناسایی معیارهای 
تأثیرگذار در برآورد میزان آلودگی شهر تهران استفاده شد. لذا برای تحقیقات آتی می‌توان توانایی phe‏ الگوریتم‌های 
تکاملی مانند الگوریتم انبوه ذرات» کلونی زنبور و ... را در ترکیب با هریک از الگوریتم‌های یادگیری ماشین جهت 
شناسایی معیارهای تأثیرگذار مورد ارزیابی قرار داد. هم‌چنین پيشنهاد می گردد با تحقیق بیشتر در خصوص آلودگی 
هوا به عنوان زمینه کاربردی این تحقیق» پارامترهای موثر دیگر با شرایط زمانی مناسب که ممکن است در میزان 
آلودگی هوای یک نقطه اثرگذار باشند. شناسایی گردیده و به پیش بینی زمانی-مکانی شاحص کیفیت آلودگی هوا در 
منطقه موردمطالعه بپردازند. 
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